我们研究了情节块MDP中模型估计和无奖励学习的问题。在这些MDP中,决策者可以访问少数潜在状态产生的丰富观察或上下文。我们首先对基于固定行为策略生成的数据估算潜在状态解码功能(从观测到潜在状态的映射)感兴趣。我们在估计此功能的错误率上得出了信息理论的下限,并提出了接近此基本限制的算法。反过来,我们的算法还提供了MDP的所有组件的估计值。然后,我们研究在无奖励框架中学习近乎最佳政策的问题。根据我们有效的模型估计算法,我们表明我们可以以最佳的速度推断出策略(随着收集样品的数量增长大)的最佳策略。有趣的是,我们的分析提供了必要和充分的条件,在这些条件下,利用块结构可以改善样本复杂性,以识别近乎最佳的策略。当满足这些条件时,Minimax无奖励设置中的样本复杂性将通过乘法因子$ n $提高,其中$ n $是可能的上下文数量。
translated by 谷歌翻译
我们在生成模型下研究了固定置信度设置中的折扣线性马尔可夫决策过程中最佳政策识别的问题。我们首先在实例特定的下限上获得了识别$ \ varepsilon $ - 最佳策略所需的预期数量,并具有概率$ 1- \ delta $。下边界将最佳采样规则表征为复杂的非凸优化程序的解决方案,但可以用作设计简单而近乎最佳的采样规则和算法的起点。我们设计了这样的算法。其中之一展示了样本复杂性上限,由$ {\ cal o}({\ frac {d} {(\ varepsilon+\ delta)^2}}}}(\ log(\ frac {1} {\ delta} {\ delta})+d d d}} ))$,其中$ \ delta $表示次优的动作的最小奖励差距和$ d $是功能空间的尺寸。该上限处于中等信心状态(即,对于所有$ \ delta $),并与现有的minimax和Gap依赖的下限匹配。我们将算法扩展到情节线性MDP。
translated by 谷歌翻译
控制蜂窝网络中的天线倾斜必须在网络覆盖和容量之间达到有效的权衡。在本文中,我们设计了从现有数据(在所谓的被动学习设置中)的算法最佳倾斜控制策略或由算法主动生成的数据(活动学习设置)。我们将这种算法的设计形式形式线性多臂杆(CL-MAb)中的最佳策略识别(BPI)问题。一个手臂代表天线倾斜更新;上下文捕获当前的网络条件;奖励对应于改善性能,混合覆盖和容量;目标是识别,具有给定的置信度,一个大约最佳的政策(将上下文映射到具有最大奖励的手臂的函数。对于CL-MAB在主动和被动学习设置中,我们在任何算法返回近似最佳策略所需的样本数量上获得信息 - 理论下限,以及实现这些基本限制的设计算法。我们将我们的算法应用于蜂窝网络中的远程电气倾斜(RET)优化问题,并显示它们可以使用比天真或现有的规则的学习算法更少的数据采样产生最佳倾斜更新策略。
translated by 谷歌翻译
The estimation of the generalization error of classifiers often relies on a validation set. Such a set is hardly available in few-shot learning scenarios, a highly disregarded shortcoming in the field. In these scenarios, it is common to rely on features extracted from pre-trained neural networks combined with distance-based classifiers such as nearest class mean. In this work, we introduce a Gaussian model of the feature distribution. By estimating the parameters of this model, we are able to predict the generalization error on new classification tasks with few samples. We observe that accurate distance estimates between class-conditional densities are the key to accurate estimates of the generalization performance. Therefore, we propose an unbiased estimator for these distances and integrate it in our numerical analysis. We show that our approach outperforms alternatives such as the leave-one-out cross-validation strategy in few-shot settings.
translated by 谷歌翻译
从不同的随机初始化开始,经过随机梯度下降(SGD)训练的神经网络通常在功能上非常相似,从而提出了一个问题,即不同的SGD溶液之间是否存在有意义的差异。 Entezari等。最近猜想,尽管初始化不同,但在考虑到神经网络的置换不变性后,SGD发现的解决方案位于相同的损失谷中。具体而言,他们假设可以将SGD找到的任何两种解决方案排列,以使其参数之间的线性插值形成一条路径,而不会显着增加损失。在这里,我们使用一种简单但功能强大的算法来找到这样的排列,使我们能够获得直接的经验证据,证明该假设在完全连接的网络中是正确的。引人注目的是,我们发现在初始化时已经存在两个网络,并且平均它们随机,但适当排列的初始化的性能大大高于机会。相反,对于卷积架构,我们的证据表明该假设不存在。特别是在大型学习率制度中,SGD似乎发现了各种模式。
translated by 谷歌翻译
近年来,海上流量有所增加,尤其是在海上贸易方面。为了确保对海洋环境的安全,保障和保护,已经部署了几种系统。为了克服一些不便,通常会融合收集的数据。融合数据用于各种目的,我们的兴趣之一是目标跟踪。在这种情况下,最相关的系统是AIS和X波段海洋雷达。许多作品认为,相机监视系统提供的视觉数据可实现其他优势。因此,已经开发了许多使用视觉数据(图像)的跟踪算法。然而,很少强调使摄像头系统集成重要的原因。因此,本文我们的主要目的是分析上述监视系统,以进行目标跟踪,并结论由摄像机集成到整体海上监视系统所带来的一些海上安全改进。
translated by 谷歌翻译